Alineación Direccional Mitiga el Hackeo de Recompensas en el Aprendizaje por Refuerzo para Modelos de Lenguaje
La alineación direccional evita el hackeo de recompensas en RL para modelos de lenguaje. Técnica clave para entrenar LLMs seguros y efectivos.